iT邦幫忙

2024 iThome 鐵人賽

DAY 10
0

今天的內容是關於兩個 AWS 的服務。 CloudTrail 和 Athena。

簡介

CloudTrail

  • 用一句話來描述這個東西: AWS 上的 Log
  • 官方文件對於 CloudTrail 的描述說明,是含有三個主要的功能

Amazon Athena

Ref

Brief Steps

  1. 啟用 AWS VPC Flow Log 並且存放到 S3 bucket 內
  2. (承上) 如果不是自己的 VPC Flow Log 的話,也請先把他們上傳到自己的 S3 bucket 內
  3. 打開 Athena Console 選擇 Query editor
    • 首先可以先建立一個資料庫
      CREATE database vpcflowlogs;
      
    • 接著,從建立資料表,來源選擇 S3 的檔案讀取到自己定義的 Schema 中
    • 下面這個是 自己放 Log 到 's3://mylog-cloudwatch/logs/' 的版本
      CREATE EXTERNAL TABLE IF NOT EXISTS vpc_flow_logs (
        version int,
        account string,
        interfaceid string,
        sourceaddress string,
        destinationaddress string,
        sourceport int,
        destinationport int,
        protocol int,
        numpackets int,
        numbytes bigint,
        starttime int,
        endtime int,
        action string,
        logstatus string
      )
      ROW FORMAT DELIMITED
      FIELDS TERMINATED BY ' '
      LOCATION 's3://mylog-cloudwatch/logs/'
      TBLPROPERTIES ("skip.header.line.count"="1");
      
    • 下面這個是 AWS VPC Flow Log 被放到指定路徑下的版本
      CREATE EXTERNAL TABLE IF NOT EXISTS vpc_flow_logs (
        version int,
        account string,
        interfaceid string,
        sourceaddress string,
        destinationaddress string,
        sourceport int,
        destinationport int,
        protocol int,
        numpackets int,
        numbytes bigint,
        starttime int,
        endtime int,
        action string,
        logstatus string
      )
      PARTITIONED BY (`date` date)
      ROW FORMAT DELIMITED
      FIELDS TERMINATED BY ' '
      LOCATION 's3://mylog-cloudwatch/AWSLogs/你的AWS_ID共12碼/vpcflowlogs/ap-northeast-1/'
      TBLPROPERTIES ("skip.header.line.count"="1");
      
    • 詳情可以參考 https://docs.aws.amazon.com/athena/latest/ug/vpc-flow-logs.html
    • 如此即可將資料表格建好,不過如果如果等一下撈不到資料的話,就要刪掉重建一張
    • 最後使用下列 query 查詢
      SELECT * from vpc_flow_logs;
      

結論

  • 作為資料科學家,極有可能會被分派到調查 CloudTrail 的事件。 所以學習 CloudTrail Lake 是不可或缺的。
  • Amazon Athena 這個功能在接下來會蠻常出現。

上一篇
【Day 9】 製造資料給資料湖 / 成本分析
下一篇
【Day 11】 關聯式資料庫的概念
系列文
老闆,外帶一份 AWS Certified Data Engineer30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言